Efecto del pre-procesamiento en la detección automática de plagio para PAN 2014 y PAN 2015
نویسندگان
چکیده
Resumen. Dentro de la detección automática de plagio, el alineamiento de texto en [1] lo define como el descubrimiento de fragmentos similares de texto entre dos documentos. La cual puede utilizarse en: detección de plagio, identificación de autoría, detección de reúso de texto, recuperación de información, entre muchas otras. El pre-procesamiento consta de diversas técnicas que se aplica en la mayoría de las tareas del Procesamiento del Lenguaje Natural (PLN), en este caso, las heurísticas presentadas son tomadas de los trabajos [1] y [2] de las mejores participaciones en la competencia internacional de detección automática de plagio PAN 2014 y PAN 2015 en la sub-tarea alineamiento de texto monolingüe, con la finalidad de conocer el efecto que tiene la eliminación de stopwords y el uso o no de stemming en las heurísticas antes mencionadas, que son técnicas dentro del pre-procesamiento.
منابع مشابه
XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida
Resumen: El principal inconveniente de los sistemas de memorias de traducción es que para que lleguen a ser productivos requieren un costoso proceso previo de alimentación manual. XTRA-Bi desarrolla métodos de extracción y alimentación automática de segmentos bilingües a partir de corpora paralelos. La clave del método radica en la utilización del formato TMX para la importación de corpus previ...
متن کاملImplementación del modelo Retinex aplicado al procesamiento de imágenes subacuáticas para mejorar su contenido cromático
Resumen. Una de las principales dificultades para una correcta captura de imágenes subacuáticas utilizando medios electrónicos (cámara fotográfica o de video), se presenta en el mismo ambiente subacuático en donde la iluminación y el tono de la fuente de luz cambian dependiendo de la profundidad del escenario para la captura de la imagen, esto debido a las diferentes longitudes de onda que se l...
متن کاملConstrucción de los WordNets 3.0 para castellano y catalán mediante traducción automática de corpus anotados semánticamente
Este art́ıculo describe una metodoloǵıa de construcción de WordNets que se basa en la traducción automática de un corpus en inglés desambiguado por sentidos. El corpus que utilizamos está formado por las propias glosas de WN 3.0 etiquetadas semánticamente y por el corpus Semcor. Los resultados de precisión son comparables a los obtenidos mediante métodos basados en diccionarios bilingües para la...
متن کاملSimplificación automática de textos en euskera
En este art́ıculo presentamos el trabajo llevado a cabo dentro del proyecto de tesis doctoral llamado “Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan” (Identificación y simplificación de las estructuras sintácticas complejas en el procesamiento automático del Euskera) que se realiza bajo la dirección de las doctoras Arantza Dı́az de Ilarraza y M...
متن کاملHerramienta de apoyo en la detección de reutilización de código fuente
Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Research in Computing Science
دوره 130 شماره
صفحات -
تاریخ انتشار 2016